Repaso

Parámetro Valor referido a una población. Número que resume o caracteriza a una población o una distribución de probabilidades
Estimador muestral del parámetro Función con el propósito de estimar un parámetro dentro de una muestra. Pueden ser puntuales o intervalos

Medidas de Tendencia Central

Son estadísticos que permiten caracterizar o representar a un conjunto de datos simples o agrupados, en función de un valor del centro o una mayoría agrupada de la distribución de esos datos.

Medidas de Tendencia Central…continuación

Objetivo:

  • Obtener un valor que resuma casi todas las mediciones.
  • Ubicarse el centro de la distribución (medidas de tendencia central)

Principales medidas de tendencia central son:

  1. Media Aritmética, Geométrica, Armónica
  2. Mediana
  3. Moda

Media Aritmetica o Promedio

Se usa para variables de tipo continuo como edad, peso, diametro, etc

Entonces, si cada dato lo representamos como Xi , donde i = 1,2,3,4, ….. Etc entonces podemos escribirlo así:

Media Aritmetica o Promedio… continuación

FINALMENTE LA FÓRMULA QUEDA ASÍ:

Ejemplo: Las notas de 5 estudiantes en estadística es: 5.5, 6, 6.8, 5.2 y 6.5. Entonces la media o promedio es:

\(\overline{x} = \dfrac{5.5+6+6.8+5.2+6.5}{5}=\frac{30}{5}=6\)

La nota media o promedio de los 5 estudiantes es 6 puntos

Media Geométrica

La media geométrica es la raíz n-ésima del producto de todos los números. Es recomendada para datos que se disponen en progresión geométrica, para promediar razones, interés compuesto y números índice.

\(\overline{x} = \sqrt[n]{x_{1}*x_{2}*x_{3}...x_{n}}\)

Veamos el siguiente ejemplo:
Paises Obesidad
México 28.9
Argentina 28.3
Chile 28.0
Uruguay 29.7

Necesitamos determinar el promedio de la obesidad en estos 4 países. Como los valores están en porcentajes, usaremos el promedio geométrico.

\(\overline{x} = \sqrt[4]{28.9* 28.3* 28* 29.7}=28.7\)

Media Armónica

Es el recíproco, o inverso, de la media aritmética de los recíprocos de dichos valores y es recomendada para promediar velocidades. Se utiliza cuando la variable de interés depende de la velocidad, tiempo, espacio y rendimiento. Se usan tambien cuando se promedian razones.

\(\overline{x} = \dfrac{N}{\frac{1}{x_{1}}+\frac{1}{x_{2}}+\frac{1}{x_{3}}+...+\frac{1}{x_{n}}}\)

Supongamos que una persona decide salir a correr 10km. Los primeros 2 km corre a 15 km/h, los siguiente 2km, a 17 km/h, los siguientes 2km, a 14 km/h, y los otros dos tramos de 2km, a 13 km/h y 12 km/h, respectivamente.

\(\overline{x} = \dfrac{5}{\frac{1}{15}+\frac{1}{17}+\frac{1}{14}+\frac{1}{13}+\frac{1}{12}}=13.99\)

Media Mediana

Es el valor que divide a una distribución de datos ordenada, en dos partes iguales, es decir, de un lado a otro existe el mismo número de datos.

Se tienen las siguientes edades de un grupo de personas: 8, 4, 6, 10, 2

1.- Se tienen que ordenar los datos: 2, 4, 6, 8, 10

2.- Si el total de datos es un número impar –> \(Pos_{md}=\dfrac{n+1}{2}\)

3.- La Mediana –> Md = 6 –> 2, 4, 6, 8, 10

2.1.- Si el total de datos coincide con un número par –> \(Pos_{md}=\dfrac{n}{2}\)

3.1.- La Mediana de 2, 4, 6, 8 es -> \(Md=\dfrac{4+6}{2}=5\)

3.2.- La Mediana es el punto medio entre los valores centrales: 2, 4 - 6, 8

Media Moda

Es el valor de la variable que presenta la mayor frecuencia absoluta, o simplemente, es el valor que más se repite en una serie de datos.

Para serie de datos simples (ordenadas) –> La Moda se obtiene por simple inspección de frecuencias.

Ejemplo:

2, 2, 3, 4, 4, 5, 5, 5, 5, 6, 6, 6, 7, 8, 8, 9, 9

Mo = 5

¿CUÁL ES LA MEJOR MEDIDA DE TENDENCIA CENTRAL?

Condición Representación
Si son simétricos y unimodales: La media, mediana y la moda deberían ser aproximadamente las mismas.
Si la distribución es asimétrica y bimodal: La media y la mediana deberían ser aproximadamente las mismas. ¿Separar los dos subgrupos?
Si la distribución es asimétrica y unimodal: La mediana a menudo es la mejor medida de tendencia central.

Medidas de Posición

Son indicadores usados para determinar el porcentaje acumulado de datos hasta cierto punto o corte en la distribución.

Las medidas de posición más utilizadas en estadística son:

1.- Cuartiles: Dividen una distribución en cuatro partes iguales

2.- Deciles: Dividen una distribución en diez partes iguales

3.- Percentiles: Dividen una distribución en cien partes iguales

Cuartiles

Supongamos que tenemos una serie de datos ordenados de menor a mayor y lo representamos de la siguiente manera:

..y ahora queremos dividirlo en 4 partes exactamente iguales. Quedaría de la siguiente forma:

Cada uno de esos “cortes” se llaman cuartiles, donde el Q1 representa al cuartil 1, el Q2 representa el cuartil2 y el Q3 representa el cuartil 3.

Cuartiles…continuación

Por tanto, cada segmento representa un 25% de la distribución y cada cuartil posee un porcentaje acumulado repectivo.

Esta estructura de representación la vamos a ver más adelante en los boxplot o gráficos de cajas y bigotes

Deciles

Dividen una distribución en diez partes iguales.

Si observamos, el D5 coincide con el Q2

Percentiles

Dividen una distribución en cien partes iguales

Al igual que en el caso anterior, observamos que el P50 coincide con el D5 y Q2

Percentiles… continuación

Percentiles… continuación

Medidas de dispersión

Son indicadores que permiten medir el grado de variabilidad o dispersión de los valores de una serie de datos con relación a un valor de referencia de la misma serie de datos.

1.- Rango o Recorrido = Valor Mayor – Valor Menor

2.- Desviación o Amplitud Cuartil (inter-cuartil): Dq = Q3 – Q1

3.- Desviación Estándar: Denotada como \(S_{x}\) (muestral) o \(\sigma_{x}\) (poblacional) \[\large S_{x}=\sqrt{\frac{\sum_{i=1}^{n} (x_{i}-\bar{x})^{2} }{n-1}}\] Permite determinar la variación o dispersión de los datos en función del promedio. Es una medida de dispersión expresada en las mismas unidades que los datos de la variable objeto de estudio.

4.- Varianza: Es una medida “bruta” de la variabilidad. Su unidad de medida corresponde al cuadrado de la unidad de medida de la variable: por ejemplo, si la variable mide peso en kilos, la varianza se expresa en kilos al cuadrado.

Medidas de dispersión… Desviación Típica

Cuando “n” es suficientemente grande, la ditribución tiende a tener esta forma:

Donde: \[\Large \overline{x}\pm1\sigma=68.27\%\] \[\Large \overline{x}\pm2\sigma=95.45\%\] \[\Large \overline{x}\pm3\sigma=99.73\%\]

Medidas de dispersión… Desviación Típica

Ejemplo: Supogamos que tenemos la edad de un grupo de niños. Determinar el promedio y la desviación estandar.

\(\large \overline{x} = \dfrac{62}{13}=4.769\)

\(\large S_{x}=\sqrt{\frac{50.308}{13-1}}= 2.0475\)

…Y la varianza:

\(\large S_{x}^{2}=\frac{50.308}{13-1}=4.192^{2}\)

Medidas de dispersión… Coeficiente de variación

5.- Coeficiente de variación: expresa la desviación estándar como porcentaje de la media aritmética, mostrando una interpretación relativa del grado de variabilidad, independiente de la escala de la variable.

\(\Large C.V.=\frac{S_{x}}{\bar{x}}*100\%\)

Siguiendo con los dato previamente calculados:

\(\Large C.V.=\frac{2.0475}{4.769}*100\%=42.93\%\)

Es decir, nuestros datos tienen una variabilidad del 42.93%, una variabilidad moderada

Medidas de Forma

Nos muestran si una distribución de datos, tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.

1.- Asimetría: permiten establecer el grado de simetría (o asimetría) que presenta una variable aleatoria. Existen variarias medidas para determinar la asimetría: Coeficiente de Fisher (el más usado), coeficiente Pearson y el Bowley-Yule.

Para ejemplificar usaremos el de Pearson por su facilidad de cálculo:

\(\Large As=\frac{\bar{x}-M_{o}}{S_{x}}\)

\(\Large As=\frac{4.796-3}{2.0475}=0.864\)

Medidas de Forma… Asimetría

As = 0 La ditribución es simétrica. existe la misma concentración de valores a ambos lados. \(\bar{x} = Md = Mo\)
As > 0 La ditribución es asimétrica positiva. La cola apunta a derecha y los valores se concentran a la izquierda de de la media. \(\bar{x} > Md > Mo\)
As < 0 La ditribución es asimétrica negativa. La cola apunta a izquierda y los valores se concentran a la derecha de de la media. \(\bar{x} < Md < Mo\)

Medidas de Forma… Curtosis

2.- Curtosis (Apuntalamiento): mide el grado de concentración que presentan los valores alrededor de la zona central de la distribución.

\(\Large Kurt=\frac{1}{n}\frac{\sum_{i=1}^{n} (x_{i}-\bar{x})^{4}}{S_{x}^{4}}\)

Donde:

Leptocurtica > 3 Mesocurtica = 3 Platicurtica < 3

Descripciones gráficas

Permiten un primer acercamiento, mostrando estructuras generales en los datos y entregando comparaciones visuales que permiten detectar patrones y tendencias de manera intuitiva

Histogramas y boxplot y Dispersión - Variables contínuas

Descripciones gráficas… continuación

Torta (Pie) y Barras - Variables Categóricas

Descriptivos básicos de la data

Usando la Función summary() podemos tener una primera aproximación a una estadística descriptiva básica de nuestros datos.

Para este ejercicio usaremos un data set craneométrico de libre uso de William Howells

#Podemos acceder a los datos desde la pagina web
#library(TestDimorph)     #En este caso usaremos la base desde una libería de R 
#data("Howells")          #La data de Howells la cargamos con la función data() 
summary(Howells)          #Con summary vemos unas primeras estadísticas de toda la base
 Sex        Pop           GOL             NOL             BNL        
 F:217   EGYPT:111   Min.   :157.0   Min.   :156.0   Min.   : 83.00  
 M:224   NORSE:110   1st Qu.:174.0   1st Qu.:172.0   1st Qu.: 94.00  
         PERU :110   Median :179.0   Median :177.0   Median : 98.00  
         TOLAI:110   Mean   :179.4   Mean   :177.4   Mean   : 97.57  
                     3rd Qu.:185.0   3rd Qu.:182.0   3rd Qu.:101.00  
                     Max.   :201.0   Max.   :199.0   Max.   :112.00  
      BBH             XCB             XFB           ZYB             AUB       
 Min.   :117.0   Min.   :120.0   Min.   : 97   Min.   :113.0   Min.   :104.0  
 1st Qu.:126.0   1st Qu.:131.0   1st Qu.:109   1st Qu.:124.0   1st Qu.:115.0  
 Median :129.0   Median :136.0   Median :113   Median :129.0   Median :119.0  
 Mean   :129.6   Mean   :135.6   Mean   :113   Mean   :128.9   Mean   :118.7  
 3rd Qu.:133.0   3rd Qu.:140.0   3rd Qu.:117   3rd Qu.:134.0   3rd Qu.:122.0  
 Max.   :146.0   Max.   :152.0   Max.   :135   Max.   :149.0   Max.   :134.0  

Descriptivos básicos de la data… continuación

Si queremos ver una estadística de una variable en particular de la base, por ejemplo la longitud Glabelo-occipital (Glabello occipital length - GOL) simplemente usamos:

summary(Howells$GOL)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  157.0   174.0   179.0   179.4   185.0   201.0 

Sin embargo, vemos que solo tenemos el valor, mínimo, el Q1, La mediana, el promedio, el Q3 y el valor máximo. Si que remos visualizar otras estadisticas como la moda, la desviación típica o asimetria o curtosis, debemos usar otros procedimientos:

#install.packages("psych")  #Instalamos esta librería
library(psych)             #Usamos esta librería para ver más estadisticas
describe(Howells$GOL) %>% kbl() %>% kable_classic_2(full_width = F, position = "left")
vars n mean sd median trimmed mad min max range skew kurtosis se
X1 1 441 179.4218 7.913962 179 179.3768 8.8956 157 201 44 0.0517976 -0.2003004 0.3768553

Aún así no tenemos la moda, por lo que vamos a calcularlo de forma manual:

head(sort(table(Howells$GOL), decreasing=TRUE))
176 178 180 182 177 172 
 29  26  26  25  22  21 

Descriptivos básicos de la data… continuación

Coeficiente de variación

cv <- scales::percent(sd(Howells$GOL)/mean(Howells$GOL), accuracy = 0.1)
cat("El Coeficiente de variación es:", cv)
El Coeficiente de variación es: 4.4%

Cuartiles / Percentiles

cuartiles <- quantile(Howells$GOL, prob=c(0.25,0.5,0.75))   #Cuartiles Q1,Q2,Q3
cat("El Q1(25%) es: ", cuartiles[1])
El Q1(25%) es:  174
cat("El Q2(50%) es: ", cuartiles[2])
El Q2(50%) es:  179
cat("El Q3(75%) es: ", cuartiles[3])
El Q3(75%) es:  185

Rango Intercuartil

rq <- diff(quantile(Howells$GOL, probs= c(0.25, 0.75)))  #Q3-Q1
cat("EL Rango Intercuartil es: ", rq)
EL Rango Intercuartil es:  11

Graficos para variables numericas

Ocuparemos la función ggplot del paquete ggplot2 La estructura básica es:

  • Data: Un data frame que contiene los datos que se quieren visualizar.
  • El aes(aesthetics) es la lista de relaciones entre las variables
  • Los geom, que especifican los elementos graficos (histogramas, dispersión, boxplot, etc) que se van a representar
  • Comenzaremos con el Histograma (geom_histogram)
#install.packages("ggplot2")   #Instalamos el paquete
#library(ggplot2)              #Cargamos la librería
ggplot(data=Howells, aes(x=GOL)) + geom_histogram(col='black', fill= "lightblue") + ggtitle('Grafico de Histograma')

Graficos para variables numericas…continuación

Podemos seguir personalizado el gráfico agregando otros módulos:

ggplot(data=Howells, aes(x=GOL)) +                        #Definimos la base y la variable numérica a usar
  geom_histogram(col='black', fill= "lightblue") +   #Definimos el color del relleno y bordes
  ggtitle('Grafico de Histograma') +                 #Agregamos el Titulo
  ylab('Frecuencia') +                                #Cambiamos la etiqueta del eje "y"
  theme_light()                                       #Agregamos un tema de ggplot

Graficos para variables numericas…continuación

Podemos ajustar un poco mejor el ancho de las barras con el argumento binwidth dentro de geom_histogram

ggplot(data=Howells, aes(x=GOL)) + 
  geom_histogram(col='black', fill= "lightblue", binwidth=3) +
  ggtitle('Grafico de Histograma') +
  ylab('Frecuencia') + theme_light()

Graficos para variables numericas…continuación

Si queremos ilustrar nuestra variable continua (GOL) para cada grupo de una variable categórica (por ejemplo Sex), usamos el módulo facet_grid

ggplot(data=Howells, aes(x=GOL)) + 
  geom_histogram(col='black', fill= "lightblue", binwidth=3) +
  ggtitle('Grafico de Histograma') +
  ylab('Frecuencia') + theme_light() +
  facet_grid('Sex')

Graficos para variables numericas…continuación

Ahora si me interesa ver el comprativo de la variable contínua por la variable categórica en el mismo gráfico, hacemos lo siguiente:

ggplot(data=Howells, aes(x=GOL, fill=Sex)) + 
  geom_histogram(binwidth=3) +
  ggtitle('Grafico de Histograma') +
  ylab('Frecuencia') + theme_light()

ggplot(data=Howells, aes(x=GOL, fill=Sex, 
                         colour = Sex)) + 
  geom_histogram(alpha = 0.5, 
                 position = "identity",binwidth=3) +
  ggtitle('Grafico de Histograma') +
  ylab('Frecuencia') + theme_light()

Graficos para variables numericas…continuación

Finalmente podemos personalizar aún más el gráfico agregando una marca de agua mediante el módulo annotate

ggplot(data=Howells, aes(x=GOL, fill=Sex, colour = Sex)) + 
  geom_histogram(alpha = 0.5, position = "identity",binwidth=3) +
  ggtitle('Grafico de Histograma') +
  ylab('Frecuencia') + theme_light() + 
  annotate("text",x=Inf,y=-Inf,label="Esteban Arroyo",hjust=1.1,
           vjust=-1.1,col="gray21",cex=4,fontface = "bold", alpha = 0.8)

Graficos para variables numericas…continuación

Boxplot o graficos de Cajas y Bigotes (geom_boxplot)

Es un tipo de gráfico que muestra un resumen de una gran cantidad de datos en cinco medidas descriptivas, además de intuir su morfología y simetría.

Este tipo de gráficos nos permite identificar valores atípicos y comparar distribuciones. Además de conocer de una forma cómoda y rápida como el 50% de los valores centrales se distribuyen.

Graficos para variables numericas…continuación

Boxplot o graficos de Cajas y Bigotes (geom_boxplot)

ggplot(data=Howells, aes(x="", y=GOL)) +    #Definimos la base y variable en eje Y. X lo dejamo vacío
  geom_boxplot(fill="blue", outlier.colour = "red" ) +        #Relleno azul y puntos atípicos rojos
  ggtitle('Grafico de Boxplot') +                              #Titulo
  stat_boxplot(geom = "errorbar", width = 0.25) +              #Definimos baras de error y ancho
  theme_bw()                                                  #Tema de ggplot

Graficos para variables numericas…continuación

Si queremos comparar la variable continua (GOL) en función de una variable categórica (por ejemplo Sex), lo incluimos dentro del parámetro X del aes

ggplot(data=Howells, aes(x=Sex, y=GOL, fill=Sex)) +  #Definimos en X= Sex y fill = Sex 
  geom_boxplot(outlier.colour = "red" ) +            #puntos atípicos rojos
  ggtitle('Grafico de Boxplot') +                              #Titulo
  stat_boxplot(geom = "errorbar", width = 0.25) +              #Definimos baras de error y ancho
  theme_bw()                                                  #Tema de ggplot

Graficos para variables numericas…continuación

Personalizamos aún más, agregando el promedio dentro del gráfico con el módulo stat_summary. Otros tipos de shape

ggplot(data=Howells, aes(x=Sex, y=GOL, fill=Sex)) +
  geom_boxplot(outlier.colour = "red" ) +
  ggtitle('Grafico de Boxplot') +
  stat_boxplot(geom = "errorbar", width = 0.25) + theme_bw() +
  stat_summary(fun=mean,geom="point",shape=18,size=3,color="black")

Graficos para variables numericas…continuación

Si A su vez, queremos ver cómo se distribuyen los boxplot por otra variable categórica, además de la ya utilizada, usamos el modulo facet_wrap

ggplot(data=Howells, aes(x=Sex, y=GOL, fill=Sex)) +
  geom_boxplot(outlier.colour = "red" ) +
  ggtitle('Grafico de Boxplot') +
  stat_boxplot(geom = "errorbar", width = 0.25) + theme_bw() +
  stat_summary(fun=mean,geom="point",shape=18,size=3,color="black") + 
  facet_wrap(~Pop)

Graficos para variables numericas…continuación

Finalmente podemos agregar nuestra marca de agua. Con scale_fill_manual cambiamos los colores

ggplot(data=Howells, aes(x=Pop, y=GOL, fill=Pop)) +
  geom_boxplot(outlier.colour = "red" ) +
  ggtitle('Grafico de Boxplot') +
  stat_boxplot(geom = "errorbar", width = 0.25) + theme_bw() +
  stat_summary(fun=mean,geom="point",shape=18,size=3,color="black") +
  annotate("text",x=Inf,y=-Inf,label="Esteban Arroyo",hjust=1.1,vjust=-1.1,col="gray21",
           cex=4,fontface = "bold", alpha = 0.8) +
  scale_fill_manual(values=c("blueviolet","darkgreen","darkturquoise","lawngreen")) 

Graficos para variables numericas…continuación

Gráfico de Dispersión

Permiten mostrar las relaciones entre dos variables de tipo contínuas, Suelen usarse para la correlación así como para la regresión lineal entre otros.

Por ejemplo queremos ver la relación entre Glabello occipital length (GOL) y Maximum cranial breadth (XCB)

ggplot(Howells, aes(x = GOL, y = XCB)) +          #Base y variables contínuas
  geom_point() +                                  #Nombre del la función gráfica
  ggtitle('Grafico de Dispersión') +              #Título
  theme_bw()                                      #Tema

Graficos para variables numericas…continuación

Gráfico de Dispersión

Ahora queremos ver como se diferencian por sexo

ggplot(Howells, aes(x = GOL, y = XCB, color=Sex)) +     #Agregamos el Sex en el argumento color
  geom_point() + 
  ggtitle('Grafico de Dispersión') + 
  theme_bw()

Graficos para variables numericas…continuación

Gráfico de Dispersión

Finalmente le agregamos un grid por Población y nuestra maraca de agua

ggplot(Howells, aes(x = GOL, y = XCB, color=Sex)) +     
  geom_point() + 
  ggtitle('Grafico de Dispersión') + 
  theme_bw() + facet_wrap(~Pop) +
  annotate("text",x=Inf,y=-Inf,label="Esteban Arroyo",hjust=1.1,vjust=-1.1,col="gray21",
           cex=4,fontface = "bold", alpha = 0.8)

Graficos para variables categóricas

Generalmente se usan los gráficos de Barras y Torta (Pie)

Empezaremos con los gráficos de Barra

#Grafico de barras simple
ggplot(data=Howells, aes(x = Pop)) +     #Definimos la base y la variable categórica
  geom_bar(fill='cadetblue2') +          #Definimos un color de relleno de la barras
  ggtitle('Grafico de Barra Simple') +   #Título
  ylab("Frecuencia") +                   #Cambiamos el nombre de la etiqueta de Y
  theme_light() +                         #Agregamos un tema
  annotate("text",x=Inf,y=-Inf,label="Esteban Arroyo",hjust=1.1,vjust=-1.1,col="gray21",
           cex=4,fontface = "bold", alpha = 0.8)

Graficos para variables categóricas…continuación

Si queremos ver una variable categórica en función de otra categórica

#Por defecto se muestra en forma apilada
ggplot(data=Howells, aes(x = Pop, fill=Sex)) +   #En fill agregamos la otra variable categórica
  geom_bar() + 
  ggtitle('Grafico de Barra Apilada') + 
  ylab("Frecuencia") +
  theme_light() +
  annotate("text",x=Inf,y=-Inf,label="Esteban Arroyo",hjust=1.1,vjust=-1.1,col="gray21",
           cex=4,fontface = "bold", alpha = 0.8)

Graficos para variables categóricas…continuación

Si no queremos el gráfico apilado, usamos la opción position = ‘dodge’. En el módulo geom_text agregamos as etiquetas de los valores con “label=..count..”

ggplot(data=Howells, aes(x = Pop, fill=Sex)) + 
  geom_bar(position = 'dodge') +                        #Agregamos la position = 'dodge' para agrupada
  ggtitle('Grafico de Barra Agrupada') + 
  ylab("Frecuencia") +
  theme_light() +
  ylim(c(0,65)) +                                               #Hacemos los limites de Y más grandes
  geom_text(aes(label=..count..), stat='count', 
            position=position_dodge(0.9), vjust=-0.2, size=4) +  #Agregamos las etiquetas valores
  annotate("text",x=Inf,y=-Inf,label="Esteban Arroyo",hjust=1.1,vjust=-1.1,col="gray21",
           cex=4,fontface = "bold", alpha = 0.8)

Graficos para variables categóricas…continuación

Opcional. Convertir los valores a porcentajes, agregamos y=((..count..)/sum(..count..))*100

ggplot(data = Howells, aes(x = Pop, fill=Sex, y=((..count..)/sum(..count..))*100 )) + 
  geom_bar(position = 'dodge') + 
  theme_light() + ylab("Porcentaje") +
  ylim(c(0,14)) +
  geom_text(aes(label=round(((..count..)/sum(..count..))*100,1)), 
            stat='count', position=position_dodge(0.9), vjust=-0.2, size=4)+
  annotate("text",x=Inf,y=-Inf,label="Esteban Arroyo",hjust=1.1,vjust=-1.1,col="gray21",
           cex=4,fontface = "bold", alpha = 0.8)

Graficos para variables categóricas…continuación

Graficos de Torta o Pie

El paquete ggplot2 no tiene un método directo para crear gráfico de torta. Para facilitarlo, usaremos la función pie() de r-base. Los datos deben ser frecuencias, para ello usaremos la función table() y prop.table() para generar las frecuencias.

frecuencia <- prop.table(table(Howells$Sex))     #Convertimos a la variable sexo en porporción

pie(frecuencia, clockwise = TRUE, 
    labels = round(frecuencia*100,2), col = rainbow(2), main = "PieChart")
legend(x ="right", legend =c("F","M"), title = "Sex", fill = rainbow(2), 
       inset = c(-0.1,0), xpd = TRUE)

Graficos para variables categóricas…continuación

Graficos de Torta o Pie

Cambiamos la paleta de colores y la ubicación de la leyenda

pie(frecuencia, clockwise = TRUE, 
    labels = round(frecuencia*100,2), col = topo.colors(2), main = "PieChart")
legend(x ="bottom", legend =c("F","M"), title = "Sex", fill = topo.colors(2), horiz = TRUE, 
       inset = c(0,-0.3), xpd = TRUE)

Graficos para variables categóricas…continuación

Graficos de Torta o Pie

Definimos de forma manual los colores, volvemos a cambiar de ubucación la leyenda y agregamos como línea puntuada las divisiones del gráfico.

pie(frecuencia, clockwise = TRUE, 
    labels = round(frecuencia*100,2), col = c("hotpink", "dodgerblue1"), lty = 2, main = "PieChart")
legend(x ="bottomleft", legend =c("F","M"), title = "Sex", fill=c("hotpink", "dodgerblue1"), 
       inset = c(-0.1,0), xpd = TRUE)

Graficos para variables categóricas…continuación

Ahora usaremos ggplot2. Esta librería no tiene una función directa para crear un Pie, asi que la estrategia es convertir un grafico de columna en uno de coordenas polares (coord_polar). Primero hay que transformar los datos en una tabla de frecuencias

#library(dplyr)    #Usaremos las funcionalidades del paquete dplyr
tabla <- Howells %>% group_by(Sex) %>% 
  count() %>% ungroup() %>% 
  mutate(pcnt = `n` / sum(`n`)) %>% 
  arrange(pcnt) %>% mutate(etiquetas = scales::percent(pcnt))

ggplot(tabla, aes(x="", y = pcnt, fill=Sex)) + geom_col() + coord_polar(theta="y") +
  geom_text(aes(label= scales::percent(round(pcnt,3))), position=position_stack(vjust=0.5)) +
  theme_void() + ggtitle('Grafico de Torta')

Tarea Corta N°1

Realizar Estadística descriptiva y Gráfica

Para esta tarea, usaremos el data set osteométrico de Goldman de libre uso. http://web.utk.edu/~auerbach/GOLD.htm

El data set osteométrico de Goldman, consta de un conjunto de mediciones tomadas de 1538 esqueletos humanos que datan del período Holoceno.

Las medidas se tomaron en ambas lateralidades de cuatro de los huesos largos: húmero, radio, fémur y tibia. Además se obtuvieron tres mediciones de la pelvis. El sexo y la edad también se estimaron a partir de observaciones pélvicas.

Los datos llevan el nombre de la fundación Joanna Jackson Goldman que financió el proyecto del Dr. Benjamin Auerbach que fuen quién recopiló toda esta información.

Tarea Corta N°1… continuación

1.- Para esta tarea, van a seleccionar tres variables, pueden ser:

  • Dos variables contínuas y otra categórica (Sex ó Location)
  • Una contínua y dos categóricas (Sex y Location)

2.- Dependiendo de su selección, hay que hacer un preproceso de limpieza:

  • Eliminar los vacíos (NA)
  • Factorizar las variables categóricas
  • Agregar las etiquetas de las categorías en caso que corresponda
  • Separar el texto en dos columnas y luego factorizar, en caso que corresponda

3.- Realizar el siguiente proceso estadístico

  • Para variables contínuas hacer estadistica descriptiva (tendencia central, dispersión y forma)
  • Para variables categóricas, realizar tablas de frecuencia
  • Realizar gráficos de histograma y boxplot para variables contínuas
  • Realizar gráficos de barras o torta para variables categóricas
  • Realizar un pequeño comentario/análisis de los resultados obtenidos

Tarea Corta N°1… continuación

Estructura del reporte

  1. Título del Reporte
  2. Nombre de los integrantes
  3. Variables seleccionadas
  4. Resultados
    • Indicar brevemente el preproceso de limpieza
    • Tabla de las estadisticas descriptivas de variable contínua
    • Tabla de las frecuencias de la variable categórica
    • Gráfico de histograma de la variable contínua
    • Gráfico de boxplot de la variable contínua
    • Gráfico de barras de la variable categórica
  5. Análisis y conclusiones
  6. Códigos Utilizados